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CPU/ATI GPU 混合 体系 结构 上 
DGEMM 的 性 能 研究 


FEE FXE 谭 光明 


摘要 : ”本 文 报道 了 我 们 在 CPU/ATI GPU 混合 体系 结构 上 优化 双 精 度 矩 阵 乘 法 (DGEMM) 的 工作 。 在 真 


实 应 用 中 ， C 


PU 与 图 形 处 理 费 (GPU) 之 间 的 数据 传输 是 影响 性 能 的 关键 因素 。 由 于 软件 流水 可 以 降低 


数据 传输 开销 ， 我 们 提出 了 三 种 软件 流水 算法 ， 分 别 是 双 缓 存 (Double Buffering)、 数 据 重 用 (Data Reuse? 


性 能 达到 758 


和 数据 存储 优化 (Data Placement). Æ AMD 公司 的 图 形 处 理 器 (GPU) ATI HD5970 上 ， 优 化 后 DGEMM 


GFLOP/s， 对 应 效率 为 82%， 是 ACML-GPU v1.1 性 能 的 两 倍 。 在 Intel Westmere EP 和 ATI 


HD5970 组 成 的 异 构 系统 上 , 性 能 达到 844 GFLOP/s, 效率 为 80%。 我们 进一步 考察 了 多 个 CPU 和 多 个 GPU 
上 DGEMM 的 扩展 性 ， 详 细 分 析 了 体系 结构 方面 的 影响 因素 。 分 析 表 明 ，PCIe 总 线 和 内 存 总 线 的 竞争 是 异 


构 系 统 上 程序 1 


性 能 降低 的 重要 影响 因素 。 


关键 词 高 性 能 计算 GPU CAL 和 矩阵 乘法 
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ni 


双 精 度 矩 阵 乘法 是 影响 科学 和 工程 领域 多 种 应 用 性 能 的 重要 因素 。 多 种 关键 数值 算法 ， 


如 BLAs3!U 


J 和 LU 分 解 疡 ， 都 依赖 于 DGEMM 的 高 性 能 实现 。 而 全 球 超 级 计算 机 排名 的 依 


据 一 一 HPLBG 测 试 程 序 则 是 由 稠密 矩阵 的 LU 分 解构 成 。 由 于 DGEMM 的 性 能 很 大 程度 上 依 


赖 于 计算 机 硬件 ， 许 多 处 理 器 厂商 开发 了 基于 特定 机 器 的 DGEMM， 如 英特尔 的 MKL 和 
AMD” 的 ACML， 并 且 在 各 自 的 多 核 处 理 器 上 进一步 优化 BLAS 库 。 图 形 处 理 器 (GPU ) 的 
浮 点 峰值 性 能 比 通用 CPU 高 出 一 个 数量 级 以 上 ， 例 如 AMD HD5970 双 精 度 浮 点 性 能 达到 
928 GFLOP/s; NVIDIA Tesla C2070 的 双 精 度 浮 点 峰值 性 能 为 515 GFLOP/s。 众 所 周知 ， 


DGEMM 是 计算 密集 型 程序 ， 访 存 比较 规律 ， 这 使 其 适合 在 GPU 上 进行 优化 。 事 实 上 ， 已 


经 有 许多 在 


GPU 上 优化 DGEMM 的 工作 0 72152324]。 以 前 的 工作 大 多 数 针 对 DGEMM 的 


计算 矩阵 已 经 存储 在 显存 上 的 情况 ， 对 DGEMM 在 GPU 上 的 实现 进行 优化 。 当 前 ， 在 许多 


GPU 


通过 PCIe 总 线 作为 加 速 部 件 与 CPU 相连 。 在 实际 应 用 中 ， 初始 时 DGEMM 的 


计算 矩阵 都 存放 在 CPU 主 存 上 。 由 于 GPU 只 能 使 用 存储 在 GPU 显存 上 的 数据 ， 因 此 GPU 


计算 DGEM 


规模 数据 需要 CPU 与 GPU 之 间 进 行 多 次 数据 传输 。 


M 之 前 需要 进行 CPU 与 GPU 之 间 的 数据 传输 。 由 于 GPU 显存 容量 的 限制 ， 大 


CPU/GPU 的 异 构 系统 中 ， 存 储 层 次 之 间 的 数据 传输 对 DGEMM 的 性 能 有 重要 影响 。 从 
系统 的 角度 看 存储 层次 分 为 两 层 : CPU 的 主 存 和 GPU 的 显存 。 首 先 ，CPU 通过 PCIe 总 线 


向 GPU 显存 传输 数据 ， 然 后 GPU 泻 染 器 (shader) 从 显存 取 数 据 计 算 。GPU HD5970 的 显 
存 峰值 带宽 为 256 GB/s, Mi PCIe 总 线 的 峰值 带宽 是 8 GB/s。 虽 然 DGEMM 是 计算 密集 型 ， 


但 这 两 个 带宽 的 差异 仍然 是 异 构 系统 上 DGEMM 总 体 性 能 的 瓶颈 。 中 里 直人 CN. Nakasato) 


PF 指出 ， 如 果 将 CPU 与 ATI Cypress GPU 之 间 数 据 传输 时 间 计 入 DGEMM 的 总 


在 引文 [15]9 


TE 


IR], DGEMM 的 效率 会 从 85% 降 至 5596. AMD 基于 CPU-ATI GPU 异 构 系统 开发 的 GEMM 


1 Basic Linear 


Algebra Subprograms 基础 线性 代数 程序 外 


Ar 


” 超 威 〈 港 台 通常 译作 “ 超 微 ”) 
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ES 


优化 库 ， 也 存在 这 种 效率 下 降 现 象 。 


优化 DGEMM 和 分 析 未 来 混合 体系 结构 的 趋势 , 都 需要 对 每 个 存储 层次 进行 定量 分 析 : 
了 解 当前 的 CPU-GPU 异 构 体 系 结构 ， 存 储 层次 对 DGEMM 的 总 体 性 能 到 底 产生 了 多 大 影 


啊 。 昌 然 之 前 已 经 有 一 些 DGEMM 在 GPU 的 优化 工作 ,但 少 有 文章 进行 了 定量 的 分 析 ， 尤 


其 对 于 CPU/GPU 异 构 系 统 。 


本 文通 过 对 多 核 CPU/Cypress GPU 异 构 系 统 的 研究 来 解决 上 述 问 题 。 


通过 设计 新 算法 


来 减少 存储 层次 间 数 据 传 输 的 开销 ， 我 们 在 这 个 异 构 系统 上 得 到 了 DGEMM 的 快速 实现 。 


本 文 的 主要 贡献 有 三 点 : 


e EEDIT IER ER DGEMM 性 能 ， 其 中 详细 分 析 了 CPU-GPU 之 间 数 据 传 


输 过 程 。 分 析 显 示 ， 数 据 传输 过 程 占 DGEMM 总 时 间 的 40%， 而 不 是 


20%， 因 此 数据 传输 的 开销 对 DGEMM 的 性 能 有 很 大 影响 。 


先前 工作 得 到 的 


@ 针对 大 规模 的 DGEMM 提 出 了 新 的 流水 算法 ,三 种 优化 方法 依次 是 : 双 缓 存 优 化 (Double 


Buffering)、 数 据 重用 优化 (Data Reuse)、 数 据 存储 优化 (Data Placement)。 优 化 后 的 
DGEMM 在 一 个 Cypress GPU 上 ， 人 性 能 达到 408GFLOP/s， 对 应 效率 达到 88%。 优 化 后 


的 DGEMM 性 能 是 ACML-GPU v1.1 的 2 倍 多 。 在 ATI HD5970 E, 优化 后 的 DGEMM 
性 能 达到 758GFLOP/s， 对 应 效率 为 82%; 混合 版 DGEMM 在 Intel Westmere EP/ATI 


HD5970 的 异 构 系 统 上 ， 性 能 达到 844GFLOP/s， 为 峰值 性 能 的 80%。 


e 最后， 我 们 分 析 了 将 DGEMM 扩展 到 多 个 CPU 和 多 个 GPU 时 的 资源 竞争 情况 ， 重 点 


分 析 了 PCIe 党争 和 内 存 竞争 。 从 中 得 出 ， 资 源 竞 争 (PCle 竞争 和 内 存 竞 争 ) 是 可 扩展 
性 的 主要 瓶颈 之 一 。 然 而 ， 单 纯 赁 借 软件 方式 不 能 完全 避免 资源 竞争 对 DGEMM 整体 


程序 的 影响 。 


2 "HX 


我 们 的 性 能 优化 主要 针对 ATI Evergreen GPU 体系 结构 ，Cypress 是 Evergreen 系列 中 最 


前 端的 GPU。ATI HD5870 卡 封装 了 一 个 Cypress F, mi HD5970 集成 了 两 个 Cypress F. 


这 部 分 主要 介绍 Cypress 的 几 个 重要 特性 一 ATI. CAL 软件 层面 上 的 存储 层次 。 我 们 将 
ACML-GPU 库 中 的 DGEMM 程序 作为 基准 程序 ， 并 以 它 为 基础 进行 性 能 优化 ， 因 此 我 们 对 


ACML-GPU 中 DGEMM 进行 详细 分 析 ， 从 中 寻找 优化 途径 。 


2.1 Cypress GPU 


一 个 Evergreen GPU 芯片 集 ,------------------------ 
成 了 多 个 计算 单元 、 一 个 控制 单 ， 
元 〈 又 称 为 线程 分 发 部 件 )、 存 ， 
储 控制 器 和 DMA 引擎。 为 了 充 ， 


分 发 挥 浮 点 操作 的 吞吐 量 ， 
Cypress GPU 微 体系 结构 采用 单 “= 


数据 传输 , 数据 传输 
内 存 总 线 | 远程 存储 | PClemik | 本 地 存储 


，[DMA 
CPU 主 存 ， [38 


指令 流 多 数据 流 (SIMD) 和 超 K1. CAL 系统 在 CPU 5 ATI GPU 间 的 存储 层次 


长 指令 字 (VLIW). HF 


? Compute Abstraction Layer， 计 算 抽象 层 〈( 亦 有 译作 “计算 提取 层 ”) 
4 Direct Memory Access， 直 接 内 存 访 问 
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XR GPU 微 体 系 结构 的 细 


eu H 


能 是 单 精 度 性 


能 的 1/5, 


介 


MR 


4 


@ CAL RAKETER 


核心 程序 既 可 以 把 GPU 寄存 器 中 的 数据 写 
程 存 储 空间 的 操作 相对 本 地 存储 的 操作 有 更 长 的 延迟 ， 因 
远程 存储 进一步 分 为 可 缓存 〈cached) 部 分 和 不 可 缓存 Cuncached) 部 分 。 例 如 


Information 


DGEMM 在 GPU 上 的 核心 程序 (kermel) ? 
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的 优化 不 是 本 文 的 着 重点 ， 在 这 里 我 们 不 详细 描 


节 。 本 文 使 用 文献 [15] 中 的 核心 程序 ， 
个 Cypress 卡 当 频率 为 725MHz 时 单 精度 浮 点 峰值 性 


层次 特征 : 


嵌 两 部 分 。 


能 为 2.32TFLOP/s， 双 精度 浮 点 操作 性 
因此 在 725MHz 频率 下 双 精 度 浮 点 操作 


1 mHE T CAL 软件 系统 层面 CPU/ATI GPU 的 异 构 体 系 结构 的 存储 
使 用 CAL 系统 中 与 程序 优化 密切 相关 的 存储 


| 分 为 本 地 存储 和 远程 存 
的 高 速 存储 。 远 程 存储 指 物理 存储 空间 不 在 显卡 
CPU 主 存 的 部 分 空间 )。 本 地 存储 和 远程 存储 都 可 


EIZH 80%。 人 简单 讲 ， 


的 峰值 性 能 为 464GFLOP/s。 


层次 。 下 面 我 们 详 


本 地 存储 指 显存 ， 为 显卡 上 


E, 1E GPU 仍 可 访问 的 存储 空间 〈( 即 
| GPU 核心 程序 读 取 。 换言之 , GPU 


回 显 存 ， 也 可 直接 写 


H 


远程 存储 。 由 于 对 远 


此 这 种 存储 方式 的 性 能 较 低 。 


» CAL 


系统 将 HD5970 的 远程 存储 划分 为 1788MB 的 不 可 缓存 存储 和 500MB 的 可 缓存 存储 。 


全 DU 


€ CAL 悄 用 


系统 的 


初始 数据 存放 好 


程 存储 空间 ， 使 大 
传输 。 一 些 应 用 


中 ， 同 样 存 在 固 


固定 内 存 (pinned memory? 


定 内 存 的 技术 ,但 固 


E CPU ISIN HA 


此 ， 选 择 哪 种 存储 空间 作为 CPU E GPU 之 间 的 共享 数据 空间 ， 将 会 影响 程序 的 性 


E 间 。GPTU 核心 程序 使 用 数据 前 需要 进行 两 次 
数据 传输 : 应 用 空间 和 远程 存储 之 间 与 远程 存储 和 本 地 存储 之 间 。 一 种 优化 方法 是 利用 


应 用 程序 直接 将 CPU 应 用 空间 
直接 进行 DMA 传输 。 这 种 方法 省 去 了 从 应 用 空间 到 远程 存储 的 数据 
使 用 CUDA? 实现 ， 通 过 这 种 方法 有 效 地 提升 了 性 能 


的 数据 传输 到 远 


。 在 CAL 系统 


定 存储 在 大 小 等 方面 存在 限制 。 因 


此 ， 通 过 存储 层 


次 之 间 适 当 的 组 织 ( 如 流水 线 算法 ) 来 降低 PCIe 总 线 上 的 数据 传输 时 间 是 十 分 必要 的 。 


2.2 DGEMM 
本 节 


述 大 规模 DGEMM 在 CPU/ATI GPU 异 构 


系统 上 的 算法 ， 原 始 数据 存储 在 CPU 的 应 用 空间 。 


DGEMM 计算 C:=alphaxAxB+betaxC， 


B 和 CC 分别 是 规模 为 mxk、 


kxn、 
及 DGEMM 的 实际 应 用 中 , 这 三 个 和 矩阵 的 规模 较 大 ， 


不 能 全 部 存储 在 GPU 显存 


o K 


此 ， 这 三 个 矩阵 被 


HPA, 
mxn 的 矩阵 。 涉 


划分 为 多 个 子 和 矩阵 块 ,每 次 将 几 个 矩阵 块 传输 到 GPU 


B - (B, B,,..,B,], C-(C,C...-,C,,] 


[A 


和 矩阵 块 乘法 如 


Z] 


2 所 示 。 


这 四 
TJE 


k| 2 中 划分 产生 了 四 个 独立 的 C 5E 
个 矩阵 块 运算 相互 独立 ， 可 以 3 


图 2. 矩阵 块 划分 


显存 ， 进 行 部 分 DGEMM 计算 。 划 分 算法 将 A、B、C 划分 为 A= (A AA} 
， 其 中 p 和 gq 依赖 于 显存 大 小 。 以 p=2，q=2 为 例 ， 


VE, C,-A;xB,. C2=A;xB2, C472 A;:xB,. C472 A;xB;; 
TTE SES. WEATER, RAH 
阵 传 入 显存 ，DGEMM EE AET AE WE 29 3) 4) 29 SB ^ NIAE E 0791 〈 如 缓存 


依赖 的 A IB 


(cache) 分 块 和 寄存 器 分 块 )。 基 于 ATI CAL 系统 的 存储 层次 ， 大 规模 DGEMM 实现 如 算 


法 1。 远 程 存储 作为 CPU 和 GPU 


之 间 的 共享 空间 ，CPU 的 应 月 


日 空间 与 GPU 的 显存 (本 地 


存储 ) 之 间 传 输 数 据 必 须 经 过 远程 存储 (第 1 行 )。 算 法 1 的 伪 代 码 中 ， 加 载 数据 到 GPU 包 


? kernel: 在 GPU 上 实现 的 DGEMM 核心 程 


* Compute Unified Device Architecture, 


E 


p. 


-种 由 


EX (NVIDIA) 1 


作出 的 通用 并 行 计算 架构 
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过 


含 两 个 步骤 (load, 和 oad2)， 将 数据 写 回 CPU 内 存 为 1 个 步骤 (store)。 事 实 上， 第 
5 fT DGEMM mult 核心 程序 的 操作 中 隐 式 地 包含 了 男 一 个 数据 写 回 操作 一 一 子 矩 阵 C 的 
数据 从 GPU 寄存 器 写 回 到 远程 存储 。 


Partition: A={Ay, Az m" B-(Bs B»,..., Ba], C-(C; C; a Cog} 

Work unit: WU={C1=A1*B, C2=A1*B2...} 
VII 
1. bind remote memory for sub-matrices A,B,C 
2. for each workunit wu; do //i-1,2,...,pxq 

//load1 
3. copy both A; and Bi from application space into remote memory 


//load2 
4. copy both A; and B; from remote memory to local memory 
//mult 
5. calculate C; on GPU device and directly output it to remote memory 
//store 
6. copy Cifrom remote memory to application space (also multiply by beta) 
7. endfor 


fiiki. DGEMM 的 原始 实现 


我 们 将 算法 1 作为 进行 性 能 对 比 的 基准 程 mult store load; load; 

序 。 下 面 我 们 给 出 异 构 CPU/GPU 系统 上 — 7D 

DGEMM 运行 时 各 部 分 的 详细 齐 析 。 图 3 给 出 80% 

了 算法 1 的 每 部 分 时 间 。 由 于 不 同 问题 规模 下 ux 

DGEMM 各 部 分 时 间 比 例 有 着 近似 的 分 布 ， 我 -i 50% 

们 以 k=2048 为 例 ,x 轴 值 为 m(n) 表 示 和 矩阵 规模 。 f 40% 

我 们 发 现 GPU mult 核心 程序 占用 了 大 部 分 时 

E KF 70%)， 而 其 余 的 三 部 分 数据 传输 总 共 10% 

占据 不 到 30% 的 运行 时 间 ， 直 观 上 数据 传输 的 dii 16384 20480 24576 28672 32768 
时 间 可 以 被 核心 程序 的 计算 时 间 所 掩盖 。 为 了 寻 矩阵 规模 

找 可 并 行 执行 的 操作 ， 我 们 将 DGEMM 算法 中 图 3. DGEMM 原始 实现 的 时 间 组 成 


使 用 资源 分 为 GPU，CPU+ 内 存 总 线 ，PCIe 总 
线 三 部 分 ， 这 三 种 资源 间 的 操作 可 以 并 行 执行 。 


表 1 给 出 了 算法 1 中 各 部 分 的 资源 占用 表 1 算法 工 中 各 步 资源 分 配 情 况 
情况 .Joaal M store 占用 CPU+ 主 存 总 线 ， CPU+ 内 存 总 线 PCIe 总 线 
load; 只 需要 PCIe 总 线 来 传输 数据 。Mult 
核心 程序 在 GPU 上 执行 ， 通 过 PCIe 总 线 将 
结果 输出 到 CPU 主 存 。 根 据 资源 分 配 情况 ， 
利用 软件 流水 算法 来 重 琵 数据 传输 doad, 
load;, store) fi mult 核心 程序 是 可 行 的 。 杨 灿 群 (Canqgun Yang) 等 人 也 实现 了 利用 
流水 线 算 法 使 loadi 和 mult 重 针 执行 中 。 然 而 ， 正 如 他 们 文章 中 所 说 及 本 文 第 4 部 分 的 
实验 结果 显示 ， 简 单 的 流水 线 算法 对 性 能 的 提升 并 不 明显 (大概 20%)。 事 实 上 ， 算 法 1 的 
执行 时 间 主 体 为 mult 核心 程序 。 先 前 算法 中 mult 核心 程序 都 是 直接 将 计算 结果 从 寄存 
器 写 回 远程 存储 ， 其 中 mult 核心 程序 部 分 除了 包含 矩阵 乘法 计算 还 包含 从 PCIe 总 线 写 回 
数据 。 这 样 ， 在 使 用 流水 线 后 ， 核 心 程序 中 的 数据 传输 成 为 性 能 瓶颈 。 因 为 : (1)， PCle 带 
宽 小 于 GPU 显存 /CPU 主 存 带宽 ; (20. mult 写 回 的 数据 会 比 load, 操作 中 传输 的 数据 大 。 
例如 LINPACK 中 的 DGEMM, k 远 小 于 m 和 n， 因 此 输出 的 C 和 矩阵 大 小 mxn 大 于 输入 的 
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步 开 发 数据 重用 优化 来 降低 


HERE A, B 的 大 小 kx (m+n)。 并 且 如 下 一 节 所 说 ， 可 以 通过 进 
因此 我 们 优化 流水 线 算法 使 浮 点 操作 和 数据 传输 操作 重 匡 得 更 


load, 中 的 数据 传输 次 数 。 
好 。 


>H 


3 ”流水 线 算法 


软件 流水 是 使 计算 和 存储 操作 重 登 的 通 上 
个 显 式 的 存储 操作 在 CPU 和 GPU 之 间 传 输 数据 ， 乘 法 操作 (mult) 直接 输出 结果 到 远程 
用 流水 线 算法 实现 mult 和 三 个 存储 操作 的 3 


存储 。 因 此 ， 


3.1 双 缓 存 优化 (Double Buffering) 


Partition: A={A, Az ..., Ap], B={By, B5...., B4], 
C={Cy, C; nu Cp] 
Work unit: WU-(C;-A;*B;, C;-Ai;*Bs...] 
Cj: the sub-matrices C is partitioned into blocks 
VIII 
1. bind remote memory for sub-matrices A,B,C 
2. for each workunit wu; do //i=1,2,...,pxq 

//load1 
3. copy both A; and B; from application space 
into remote memory 

//load2 
4. copy both A; and B; from remote memory to 
local memory 

//mult 
5. calculate Ci1 on GPU device and output it to 
remote memory 
6. for each block Ci do //j-2,3... 

//store 
7. copy Cij-1 form remote memory to 
application space (also multiply by beta) 
//mult 
8. calculate Ci on GPU device and output it 
to remote memory 
9. endfor 
//store 

10. copy the last Cj; form remote memory to 
application space (also multiply by beta) 

11. endfor 


算法 2. 结合 双 绥 存 优化 (Double 


Buffering) 的 DGEMM 


Ti 


写 回 C ERER store 操作 


实现 了 数据 传输 和 少量 的 浮 点 计算 (beta x C), 


方法 。 算 法 1 中 有 


load;. load», store = 


行 执行 是 必要 的 。 


Partition: A-(A;, As, ..., Ap], B={B1, B....,Bq], 
C={Cy, C; a Cp] 
Work unit: WU-(C;-A;*B;, C;-A1*B;...] 
Cj: the sub-matrices C is partitioned into blocks 
M: 
1. bind remote memory for sub-matrices A,B,C 
//pre-processing 
Allocate workunits in a wriggled way 
//the for-loop is pipelined 
2. for each workunit wu; do //i-1,2,...,pxq 
//load1 
3. copy either A; or B; from application space 
into remote memory according to the 
indicators 
//load2 
4. copy either A; or B; from remote memory to 
local memory according to the indicators 
//mult 
5. calculate Ci1 on GPU device and output it to 
remote memory 
6. for each block Ci do //j22,3... 
//store 
7. copy Cij-1 form remote memory to 
application space (also multiply by beta) 
//mult 
8. calculate Cj; on GPU device and output it 
to remote memory 
9. endfor 
//store 
10. copy the last C; j form remote memory to 
application space (also multiply by beta) 
11. endfor 


算法 3. 结合 数据 重用 优化 〈Data 


Reuse) 的 DGEMM 


占用 一 定 CPU 


资源 。 为 隐藏 写 回 C 矩阵 的 开销 ， 
单元 i 执行 store 操作 时 , 工作 单元 i+1 


种 方法 是 在 不 同 
的 mult 操作 可 以 同时 进行 。 这 种 流水 线 存在 两 个 


作 单 元 间 实 现 流 水 。 例 如 ， 当 工作 


问题 。 首 先 ，1oadi 和 store 之 间 存 在 资源 冲突 ， 
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因为 他 们 都 是 在 应 用 空间 和 CAL 的 远程 


CPU/ATI GPU 混合 体系 结构 上 DGEMM 的 性 能 看 


e 


存储 (CPU 主 存 的 一 部 分 ) 之 间 进 行 数据 传输 ， 资 源 的 冲突 降低 流水 线 效率 。 其 次 ， 远 程 
存储 空间 的 大 小 有 限 ， 尤 其 是 可 缓存 远程 存储 。 由 于 store 操作 在 CPU 部 分 执行 ， 因 此 利 
用 可 缓存 远程 存储 空间 保存 产生 的 C 子 矩 阵 。 但 绥 存 空间 大 小 限制 流水 线 中 可 并 发 执行 的 
工作 单元 数量 。 


一 个 更 好 的 策略 是 在 一 个 工作 单元 中 开发 更 细 粒 度 的 流水 线 。 算 法 2 给 出 了 细 粒 度 流 水 
线 的 伪 代 码 ， 将 生成 的 C 子 和 矩阵 块 进一步 划分 成 更 细 的 子 块 ， 这 些 子 块 用 流水 方式 执行 。 
我 们 开发 了 双 缓 存 算 法 ， 在 可 缓存 远程 存储 上 开辟 两 个 缓存 空间 。 对 于 算法 2 第 6-9 行 的 每 
个 for 循环 , store 操作 将 一 个 缓存 的 子 矩 阵 块 Cu 写 回 应 用 空间 ,同时 mult 计算 下 一 个 
子 矩 阵 块 C, 4 并 将 其 写 回 到 另 一 个 缓存 空间 。 流 水 过 程 中 ，muIt 和 store 交 蔡 使 用 这 两 
个 缓存 空间 。 由 于 GPU 的 核心 程序 以 异步 的 方式 执行 ， 因 此 对 于 每 个 循环 mult 和 store 
都 可 以 并 行 执行 。 

3.2 数据 重用 优化 (Data Reuse) 

MEH, load load: 和 store 操作 的 执行 时 间 总 和 比 mult 执行 时 间 小 很 多 (图 
3)， 这 三 部 分 的 开销 可 以 较 容易 地 被 工作 单元 间 的 流水 线 执行 方式 掩盖 。 然 而 ， 各 操作 间 仍 
存在 资源 冲突 ，loadi 和 store 之 间 存 在 CPU EIR, load 和 mult 之 间 存 在 PCIe 
冲突 。 资 源 冲突 导致 流水 线 的 延 运 ， 从 而 降低 DGEMM 的 整体 性 能 。 


幸运 的 是 ,在 两 个 连续 的 工作 单元 间 我 们 可 以 开发 数据 重用 。 以 图 2 为 例 ， 如 果 我 们 按 
KEWU, =C,=A,xB,; WU,=C,=AxB,， WU,=C,=A,xB,，WU,=C,;=A,xB, 的 顺序 
调度 工作 单元 , 每 两 个 连续 的 工作 单元 间 都 有 一 个 输入 子 和 矩阵 是 相同 的 , 这 就 降低 了 资源 ; 
突 的 开销 。 开 发 数据 重用 还 需要 另外 两 个 步骤 : 首先 ， 需 要 一 个 预 处 理 过程 ， 对 工作 单元 重 
新 排序 ， 结 果 存 放 在 一 个 队列 中 。 我 们 把 C 矩阵 划分 为 条 形 和 矩阵 的 集合 ， 以 整数 (i=0,1...) 
命名 。 每 个 条 形 和 矩阵 再 分 为 矩阵 块 ， 当 i%2=0 时 自 底 向 上 划分 ， 当 i%2=1 时 自 上 而 下 划分 。 
我 们 以 这 种 “ 迁 回 ”的 方式 划分 条 形 第 阵 ， 一 个 条 形 和 矩阵 顶部 (或 底部 ) 的 矩阵 块 与 下 一 个 
条 形 算 阵 顶部 (或 底部 ) 的 矩阵 块 相 连 ， 并 将 所 有 矩阵 块 按 序 存 入 队列 。 其 次 ， 我 们 需要 设 
置 两 个 标志 ， 标 出 正在 运行 的 A、B 的 矩阵 块 在 队列 中 的 位 置 ， 避 人 免 载 入 相同 的 矩阵 块 。 算 
法 3 给 出 了 结合 数据 重用 优化 的 流水 线 算法 。 


3.3 数据 存储 优化 (Data Placement) 


表 2. 优化 后 DGEMM (算法 4) 的 资源 分 配 情况 
CPU+ 内 存 总 线 PCIe 总 线 


数据 重用 优化 中 A M B 的 矩阵 子 块 
临时 存储 在 GPU 本 地 存储 中 。 我 们 将 A 
和 B 的 远程 存储 空间 设置 为 不 可 缓存 方 
式 ， 因 为 : (1). 矩阵 A 和 B 的 数据 传输 
过 程 中 不 需要 计算 ，(2). 远程 存储 的 可 
缓存 部 分 空间 太 小 ,不 能 有 效 加 速 Joaal | St0re: 
操作 的 执行 。 由 于 所 有 工作 单元 中 的 C LStere: 
子 和 矩阵 之 间 不 存在 数据 重用 ， 是 相互 独立 的 ， 且 C 矩阵 作为 最 终 和 输出 结果 不 会 重新 使 用 ， 
这 样 看 来 ， 将 C 矩阵 存储 在 远程 存储 而 非 GPU 本 地 存储 很 合理 ， 并 且 减 少 了 有 限 显存 空间 
的 占用 。 因 此 上 面 的 三 个 算法 中 ，C 矩阵 都 是 存储 在 可 缓存 远程 存储 上 ， 以 期 在 诸如 内 存 间 
数据 拷贝 和 与 beta 的 乘积 等 运算 获得 更 高 的 CPU 性 能 。 


上 述 流 水 线 的 执行 使 得 数据 传输 操作 (loadi、10ad;，、store) 与 乘法 核心 程序 (mult) 
重症 ， 流 水 线 的 执行 时 间 基 本 由 mult 时 间 决 定 。 因 此 ， 目 前 的 优化 方向 是 降低 流水 线 中 


load; 
load; 
mult 


第 9 卷 第 6 


mult 的 执行 时 间 。1 
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T mult 核心 程序 中 包含 数据 传输 操作 ， 和 输出 数据 从 GPU 寄存 器 直 
接 写 回 远程 存储 。 我 们 的 优化 策略 是 在 流水 线 中 增加 一 个 额外 的 阶段 ,这样 输出 数据 到 远程 


存储 的 操作 也 可 以 和 GPU 核心 程序 的 计算 重 芭 。 


Partition: A={A,, Az ..., Ap], B-(B; B5...., Bo], 
C={Cy, C; s Coah 
Work unit: WU-(C;-A;*B;, C;-Ai1*Bs...] 
Cj: the sub-matrices C is partitioned into blocks 
[MT 
bind remote memory for sub-matrices A,B,C 
//pre-processing 
Allocate workunits in a wriggled way 
the for-loop is pipelined 
2. for each workunit wu; do //i-1,2,...,pxq 
//load1 
3. copy either A; or B; from application space 
into remote memory according to the 
indicators 
//load2 
4. copy either A; or B; from remote memory to 
local memory according to the indicators 
//mult 
5. DMAPipeline(C; 1) 
6. for each block Ci do //j22,3... 
//store2 
7. copy Cijiform remote memory to 
application space (also multiply by beta) 
//mult 
8. DMAPipeline(C;;) 
9. endfor 
//store2 
10. copy the last C; j form remote memory to 
application space (also multiply by beta) 
11. endfor 


算法 4. 
IPS 
序 产生 的 结果 输出 
成 两 个 阶段 : 
的 


使 得 这 两 个 操作 3 


到 目 


此 我 们 把 矩阵 C 直接 输出 到 远程 存储 的 操作 从 mult 核心 程序 中 分 离 出 来 。 核 心 程 
到 GPU 本 地 存储 ， 而 非 远 程 存储 。 如 算法 4 所 示 ， 先 前 的 mult 操作 分 
mult: Ñi store;,, store, C EREM GPU 本 地 存储 传输 到 远程 存储 。 资 源 
占用 情况 发 生 改 变 ，multi 完全 由 GPU 设备 执行 , 而 store, 
于 核心 程序 和 DMA 操作 都 是 异步 执行 ， 我 们 在 显存 中 同样 采用 双 缓 存 策略 来 存储 CTER, 
行 执行 。 为 了 表述 更 清晰 ， 以 下 部 分 我 们 用 store, RRE store 操作 。 


前 为 止 ， 优 化 的 DGEMM 中 建立 了 5 级 流水 线 (loadi、 load». multi. store, 


Algorithm: DMAPipeline(C,;;) 
Cij: the Ci; blocks are further partitioned 
into sub-blocks 
VIII 

//mult1 
1. calculate C;;; in local memory 
2. for each sub-block Cijx do //k-2,3... 

//storel 

DMA transfer Cijkecl from local memory 
into remote memory 

/mult1 

calculate Cijk in local memory 


3. 


4. 


5. endfor 
//store1 
6. DMA transfer the last Cijk from local 


memory into remote memory 


结合 数据 存储 优化 (Data Placement) 的 DGEMM 


DMA 引擎 传输 数据 。1 


storez)， 各 个 操作 的 资源 占用 情况 如 表 2 所 示 。 至 此 我 们 成 功 地 解决 了 第 2 节 提 到 的 


ACML-GPU 中 的 两 个 
内 存 ， 消 除了 mult ! 
提出 了 更 快速 的 核心 程序 执行 , 而 且 
我 们 绘 出 了 流水 线 的 粗略 时 空 图 (图 


问题 。mult1 核心 程序 只 需要 GPU 资源 ， 不 再 需要 PCIe 总 线 和 系统 
的 PCIe 竞争 ，muIti 核心 程序 可 以 与 oaa2 jj 
细 化 了 流水 线 , 降低 了 1 
4)， 此 图 只 画 出 了 流水 线 的 大 致 流程 ， 


行 执行 。 算 法 4 不 仅 
于 资源 竞争 造成 的 流水 线 延 迟 。 


小 步骤 之 间 的 资源 冲突 情况 。 我 们 用 不 同 的 底 纹 表示 这 五 个 操作 。muJti 块 中 的 条 形 小 块 表 


示 被 mult, 核心 程序 重 全 的 子 和 矩阵 的 数据 传输 操作 。 如 此 图 所 示 ， 除 了 流水 线 的 


PRIN 
AAA! 


束 开销 ， 


大 部 分 数据 传输 过 程 被 完全 重 


始 和 结 


3 
TAA 
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CPU/ATI GPU 混合 体系 结构 上 DGEMM 的 性 能 研究 


WU 1 


WU2 


WU3 


WU 4 


LL 
load, Tba} 


图 4. 优化 后 的 DGEMM 流水 线 执行 时 空 图 


4 ”实验 结果 和 分 析 
4.1 实验 建立 


我 们 的 实验 平台 是 2- 路 Intel Xeon 
5650 CPU 和 一 个 ATI HD5970 GPU 卡 组 
成 的 异 构 平台 。 表 3 概括 了 实验 平台 的 
配置 参数 , 其 中 英特尔 的 多 核 CPU US 
度 浮 点 峰值 性 能 为 128GFLOP/s。CPU 
内 存 大 小 为 24GB, 带宽 为 31GB/s。GPU 
集成 了 两 个 Cypress 芯片 ， 双 精度 浮 点 
峰值 性 能 为 928GFLOP/s. GPU 显存 大 
小 为 2GB， 带 宽 为 256GB/s。 该 异 构 系 
统 双 精 度 浮 点 峰值 性 能 达到 1056G 
FLOP/s。 


为 了 给 出 完整 的 实验 分 析 , 我 们 依次 运行 了 第 3 节 的 三 个 优化 算法 ， 
定义 一 些 记号 代表 不 同 的 优化 版 本 。 


都 包含 前 一 种 优化 。 为 方便 描述 ， 我 们 


表 3. 实验 平台 的 系统 配置 


处 理 器 


store 


参数 


Intel Xeon X5650 


ATI HD5970 


Westmere EP 


Cypress 


2.66Ghz 


725Mhz 


芯片 数 


2 


2 


双 精 度 浮 点 峰值 


128GFLOP/s 


928GFLOP/s 


DDR3 1.3Ghz 


GDDRS 1.0Ghz 


大 小 


24GB 


2GB 


峰值 带宽 


31.2GB/s 


256GB/s 


x16, 


8GB/s 


改进 ， 其 中 一 个 重要 优化 是 


DP: 在 DB 和 DR 的 基础 


Co 该 各 


显存 中 的 入 


icc + openmpi 


ATI Stream SDK 2.2 


其 中 每 个 优化 算法 


DB: 该 程序 执行 算法 2 一 一 利用 双 组 存 策略 隐藏 从 远程 存储 写 回 到 C 矩阵 到 应 用 
间 的 开销 。 程 序 分 配 的 两 个 缓存 大 小 1 


E 阵 大 小 决定 。 


DR: 该 程序 执行 流水 线 算法 3， 基 于 DB 优化 并 对 降低 输入 和 


发 读 入 矩阵 的 数据 习 
呈 序 执行 算法 4， 针 对 CAL 系统 存储 层次 


存放 进行 优化 。 
有 效 的 流水 线 。 


HH 主要 优化 是 改变 了 久 


HB: 上 述 三 个 程序 单纯 利用 GPU 的 计 
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zr 5 


EH]. 


源 ， 本 程序 实现 了 混合 


Ht 


E 阵 的 载 入 开销 进行 了 


的 数据 
ik C 的 存储 位 置 并 利用 DMA 方式 设计 出 更 
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DGEMM-— —CPU 和 GPU 并 行进 行 和 矩阵 乘法 运算 。 我 们 采用 引文 [21] 中 提出 的 CPU 


"d 


0096 

8096 

|| 9096 

7096 
60% , 


| 50% x 
40% 

|| 3096 

|| 2096 

|| 1096 

096 


性 能 Gflops/s 


A7 


与 GPU 之 间 负 和 载 均 衡 策略 ， 在 CPU 和 GPU 之 间 进 行 矩 阵 划分 。 实 验 中 ， 我 们 启动 
两 个 MPT 进程 ， 每 个 进程 使 用 一 对 CPU/GPU。 
由 于 ACML-GPUI 库 中 的 DGEMM 代码 是 开源 的 ， 我 们 利用 这 个 代码 作为 我 们 的 初始 实验 
和 实验 对 比 来 衡量 本 文 的 优化 效果 。 
表 4 给 出 了 实验 中 用 到 的 矩阵 大 小 (mm k) EET m, n 值 的 不 同 对 DGEMM 性 能 几乎 
DGEMM 性 能 。 我 们 取 三 种 天 的 值 代表 不 同 的 数据 — 3*4. 实验 中 使 用 的 m, n, k 大 小 
集 大 小 ， kk 分别 等 于 1536、2048、4096。 在 以 下 部 k m-n 
分 , 我 们 通过 计算 相同 K 值 不 同 mm( 或 站 规模 矩阵 的 1536 
24576 | 28672 | 32768 
性 能 值 。 对 于 详细 的 剖析 我 们 默认 以 k=2048 为 例 ， 4096 
不 同 的 矩阵 规模 通过 x 轴 上 的 mm 值 表 示 。 
4.2 实验 结果 
在 异 构 系 统 上 的 性 能 。 性 能 对 比 的 基 HB-2GPU DP-2GPU ACML-GPU 
准 程序 为 ACML-GPU v1.1, [E 5 mi 
出 了 最 终 优化 版 本 DP 和 CPUGPU 
的 性 能 提升 。 混 合 版 DGEMM (HB- 
2GPU) 最 高 性 能 为 844GFLOP/s 在 
矩阵 规模 为 (m, n, k) = (16384, 
为 80%。 优 化 后 DGEMM 在 GPU 上 
的 (DP-2GPU) 最 高 性 能 为 758 0 16384 20480 24576 28672 32768 
GFLOP/s 在 矩阵 规模 (m, n, k) = 矩阵 规模 
效率 为 82%。 这 些 结果 说 明 DP- 两 个 MPI 进程 ) 
2GPU 是 ACML-GPU 库 中 DGEMM 性 能 的 2 倍 ,混合 版 DGEMM 性 能 进一步 提升 了 
10%-20%。 大 体 来 说 ， 随 着 矩阵 规模 增 大 这 三 个 程序 都 表现 出 性 能 和 效率 的 提升 。 有 的 规模 
程序 执行 时 矩阵 块 大 小 的 整数 倍 。 随 着 矩阵 规模 增 大 ，DP 相对 ACML-GPU 的 加 速 比 降低 。 
当 k 为 1536、2048、4096， 加 速 比 分 别 为 2.9、2.1、1.9 倍 。 这 是 由 于 数据 传输 与 核心 程序 
执行 时 间 的 比例 随 着 问题 规模 的 增 大 而 降低 。 而 我 们 的 流水 线 优化 是 针对 降低 CPU 与 GPU 
阵 在 GPU 上 相对 而 言 更 容易 获得 高 效率 ， 因 为 小 规模 矩阵 数据 传输 时 间 的 比重 大 。 和 矩阵 规 
模 越 小 ， 越 难得 到 好 的 效率 。 并 且 ， 和 矩阵 规模 越 大 ，HB-2GPU 的 性 能 提升 越 快 。 这 是 因为 
矩阵 规模 越 大 ，CPU 部 分 DGEMM 的 性 能 越 好 ， 从 而 提升 了 HB-2GPU 的 整体 性 能 。 


这 四 个 程序 代表 了 四 种 优化 策略 ， 程 序 之 间 的 优化 策略 包含 情况 为 DB<DR<DP<HB。 
没有 影响 ， 因 此 我 们 设 定 m-n. k 的 大 小 决定 了 输入 秆 阵 A、B 时 的 数据 重用 个 数 ， 影 响 
性 能 均值 得 出 不 同 k 大 小 对 应 的 三 种 规模 DGEMM 2048 | 16384 | 20480 

首先 ,我 们 给 出 优化 的 DGEMM MM Ei 
协同 计算 的 混合 版 DGEMM (HB) 

16384, 4096) 处 取得 , 其 相应 的 效率 

(16384, 16384, 4096) 处 取得 ， 对 应 图 5. 优化 后 DGEMM 性 能 及 效率 

出 现 了 反常 的 情况 C^ m= n -10240 时 )， 因 为 此 时 的 问题 规模 不 是 最 优 的 数据 传输 和 核心 

之 间 数 据 传输 的 开销 , 因此 规模 大 的 矩阵 优化 效果 减弱 。 我 们 观察 到 大 规模 矩阵 比 小 规模 算 
其 次 , 我 们 评价 了 第 3 节 提 出 的 三 种 优化 策略 。 为 了 屏蔽 系统 中 的 其 他 干扰 (如 带宽 竞 


» 


7 Message Passing Interface， 消 息 传递 接口 
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争 ， 我 们 将 在 下 一 节 详 细 介绍 )， 我 们 在 一 个 GPU 芯片 上 运行 DGEMM 程序 且 不 分 配 计算 
任务 给 CPU, CPU 只 用 来 指导 数据 传输 。 图 6 画 出 了 优化 后 算法 性 能 的 增长 ， 包 括 双 缓 存 
优化 (DB)、 数 据 重用 优化 (DR) 和 数据 存储 优化 (DP). SFI 1 对 比 ， 双 缓存 优化 借 
助 在 一 个 工作 单元 内 部 将 store: 流水 执行 ,性 能 提升 了 16%。 数 据 重用 优化 由 于 对 不 同 工 
作 单 元 间 的 数据 载 入 操作 流水 执行 ， 进 一 步 使 性 能 提升 了 18%。 最 后 ， 数 据 存储 优化 又 更 
进一步 使 性 能 显著 提升 了 74%， 其 中 我 们 优化 了 原始 的 mult 核心 程序 并 利用 DMA 引擎 
对 C 和 矩阵 的 写 回 操作 进行 流水 处 理 。 在 单个 Cypress GPU 芯片 上 ，DP 优化 算法 达到 了 408 
GFLOP/s 的 性 能 ， 其 效率 为 88%。 


图 3 中 表示 的 三 个 数据 传输 操作 (loadi1、1oad, 和 store) 占据 了 总 计算 时 间 的 近 
30%， 但 这 并 不 是 全 部 的 数据 传输 过 程 ， 还 应 加 入 storei 的 执行 时 间 。 我 们 优化 了 流水 算 
法 ,将 store, 从 mult 核心 程序 中 分 离 出 来 。 显 然 ， 这 种 做 法 更 符合 流水 线 的 本 质 。 将 
mult 核心 程序 中 的 storei 计 入 总 数据 传输 时 间 后 ,总 数据 传输 过 程 占据 了 总 时 间 的 40% 
以 上 。 图 7 给 出 每 个 数据 传输 操作 占 总 数据 传输 时 间 的 百分比 。 从 中 看 出 ,图 6 中 的 每 种 优 
化 策略 得 到 的 性 能 提升 与 各 部 分 数据 传输 时 间 的 分 布 大 体 一 致 , 说 明 我 们 的 优化 使 流水 线 得 
一 到 了 充分 利用 。 另 外 ， 数 据 存储 优化 使 得 DGEMM 得 到 了 更 多 的 性 能 提升 ， 这 是 因为 通过 


— 


之 这 一 优化 ， 核 心 程序 的 性 能 也 得 以 提升 。 图 6 中 还 可 以 看 出 ， 优 化 的 DGEMM 性 能 对 征 阵 
© 规模 变化 不 大 敏感 ， 性 能 比较 平稳 。 这 一 性 质 为 将 优化 的 DGEMM 扩展 到 多 个 CPU 和 多 个 


CN GPU 的 平台 打下 了 良好 基础 。 本 图 中 在 一 个 GPU 芯片 上 DGEMM 的 性 能 平稳 ， 这 与 图 5 
e 中 异 构 平台 上 得 到 的 性 能 趋势 不 同 。 我 们 将 在 下 一 节 进一步 讨论 这 一 现象 。 


| [| H El 
"end 算法 1 DB DR DP 
a] 450 M store» store? load, load; 
0 
400 ko 
| 350 80% 
V 300 —. 70% 
»- | o E o, 
P Q 250 i3 60% 
-— © +H = 5096 
2 号 加 Iur 
o 200 iz T 40% 
H 150 B 3096 
— - 100 H LE :三 20% 
sol E 10% 
o LLLE IES HE 0% 46384 20480 24576 28672 32768 
16384 20480 24576 28672 32768 
和 矩阵 规模 


AE EE AUR 


图 7. DGEMM 中 四 个 数据 
传输 操作 所 占 百分比 


图 6. 每 种 优化 方法 的 性 能 提升 


4.3 实验 分 析 

CPU 数学 库 中 DGEMM 的 效率 通常 达到 90% 以 上 , 异 构 体系 结构 上 混合 版 DGEMM 的 
效率 最 高 为 82%。 本 节 我 们 考察 :(1). 我 们 的 流水 线 优化 在 异 构 体系 结构 上 还 存在 多 大 的 
优化 空间 ; (2)， 体系 结 构 的 参数 怎样 影响 优化 的 DGEMM 在 多 个 CPU/GPU 的 性 能 。 
4.3.1 性 能 差距 

在 流水 线 执行 的 五 个 阶段 ，mult1 核心 程序 决定 了 DGEMM 可 能 达到 的 最 高 性 能 。 中 
里 直人 0 优化 了 DGEMM 核心 程序 的 性 能 ， 在 HD5870 集成 一 个 Cypress 芯片 ) 上 获得 
的 最 高 效率 是 87%。 我 们 采用 中 里 直人 优化 后 的 核心 程序 。 不 同 的 是 ， 我 们 使 用 了 图 像 读 
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写 寻 址 模式 ， 而 不 是 全 局 寻 址 模式 。 因 此 在 一 个 Cypress 蕊 片上， 我们 获得 了 更 高 的 效率 : 


9496, 


8 绘 出 了 DGEMM 与 核心 程序 的 效率 对 比 ， 其 中 含有 一 个 GPU 卡 优化 的 DGEMM 
实现 〈 即 DP 实现 )， 两 个 GPU 卡 的 DP 实现 及 两 个 CPU 与 两 个 GPU 的 混合 版 DGEMM 实 
现 。 我 们 对 每 个 测试 集 求 出 它们 的 平均 效率 。DGEMM 执行 过 程 中 多 次 调用 核心 程序 ， 我 
们 对 每 次 核心 程序 计时 , 最 后 求 出 它们 的 性 能 平均 值 作为 最 终 的 核心 程序 性 能 。 优化 的 核心 
程序 只 读 写 GPU 的 本 地 存储 空间 ， 因 此 它 的 性 能 与 CPU 无 关 。 如 图 所 示 ， 核心 程序 的 平均 

效率 超过 90% (最 优 效率 为 94%), 与 CPU 上 DGEMM 效率 相近 。DP 与 核心 程序 的 区 别 是 
CPU 与 GPU 之 间 通 过 内 存 总 线 和 PCIe 总 线 的 数据 传输 的 有 无 ， 本 文通 过 软件 流水 方法 掩 
盖 数 据 传输 的 开销 。 图 中 的 实验 结果 表示 由 于 数据 传输 开销 ，DP-1GPU 的 效率 相 比 核心 程 
序 降 低 了 6%。 该 性 能 降低 有 两 个 原因 : 首先 ， 流 水 线 的 启动 和 终止 时 间 是 不 能 隐藏 的 ， 这 
部 分 大 约 占 据 了 DGEMM 总 时 间 的 3%。 其 次 ， 如 表 2 所 示 ， 优 化 的 DGEMM 中 仍然 存在 
固有 的 资源 冲突 ， load 和 store; 间 的 内 存 总 线 冲突 ，1load, 和 storei 间 的 PCIe 总 线 ; 
突 。 除 去 这 两 个 因素 ， 我 们 认为 优化 的 DGEMM 在 一 个 GPU 芯片 上 实现 DP-1GPU 几乎 达 
y 到 了 最 优 性 能 。 


从 图 8 中 还 得 知 ， 当 DGEMM 运行 在 更 | 


z 
多 的 CPU 和 GPU 时 (DP-2GPU 和 HB-2GPU) T a DP-1GPU DP-2GPU HB-2GPU 
0 


效率 下 降 。 当 在 两 个 GPU 芯片 上 运行 DP 时 jo% 

(DP-2GPU), 5 DP-1GPU 相 比 效率 降低 so% 
11% 。 这 是 因为 两 个 GPU 芯片 上 运行 的 MI: 
DGEMM， 都 需要 通过 内 存 总 线 和 PCIe 总 线 " soy UÉ 
进行 CPU 和 GPU 之 间 的 数据 传输 ， 加 剧 了 4o IU 


1 zo% — ^ i 
c2 这 两 条 总 线 的 资源 竞争 。 另 外 ， 当 DGEMM 209e| HE 加 


FE 扩展 到 两 个 CPU 和 两 个 GPU 的 异 构 系 统 时 1096 


(HB-2GPU), 效率 相 比 DP-2GPU 降低 596. 0% 1536 2048 4096 
- HB-2GPU 中 CPU 运行 部 分 矩阵 的 DGEMM ， BERN 
= Ej GPU 共享 同一 应 用 空间 , 进一步 加 重 了 内 图 8， 扩 展 到 多 个 GPU/CPU 时 
一 存 总 线 负担 。 增 加 的 系统 内 存 竞争 使 得 优化 后 DGEMM 的 效率 
€) HB-2GPU 的 效率 低 于 DP-2GPU。 我 们 将 在 接 下 来 的 两 节 详 细 讨论 这 两 种 资源 竞争 。 


4.3.2 多 个 GPU 上 的 扩展 性 


前 大 多 数 加 速 器 (如 GPU, ClearSpeed, Tilera) 通过 PCIe 总 线 与 CPU 相连 ， 主 板 上 
的 多 个 PCIe 插 模 可 以 同时 支持 多 个 GPU 连接 。 有 些 GPU 卡 集成 了 多 个 GPU 芯片 ,如 ATI 
Radeon HD5970 和 NVIDIA Tesla S1070。 因 此 ， 优 化 的 DGEMM 在 多 个 GPU 上 的 扩展 性 问 
题 也 很 重要 。 由 于 实验 平台 的 限制 ， 实 验 中 运行 两 个 MPI 进程 ， 每 个 进程 负责 一 个 GPU w 
片 的 运行 。 由 于 影响 DGEMM 扩展 性 的 关键 因素 是 共享 资源 竞争 , 如 PCle 总 线 和 内 存 总 线 ， 
用 两 个 GPU 芯片 的 性 能 来 预测 DGEMM 在 多 个 GPU 上 的 性 能 是 可 行 的 。 实 验 试图 通过 两 
个 GPU 芯片 之 间 的 带宽 竞争 来 预测 多 个 GPU 上 DGEMM 的 扩展 性 。 实 验 谢 析 了 DGEMM 
从 一 个 GPU 芯片 到 两 个 GPU 芯片 的 有 效 带宽 变化 , 其 中 DP-2GPU 中 每 个 MPI 进程 运行 的 
和 矩阵 规模 与 DP-1GPU 相同 。 从 表 2 中 可 以 看 出 ，PCIe 总 线 和 内 存 总 线 都 存在 带宽 竞争 。 
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为 了 突出 带宽 变化 ， 我 们 将 DP-2GPU 上 的 


四 Load; Store, 
PCIe 和 内 存 带宽 相对 DP-IGPU 的 带宽 进行 归 一 100% 
化 。 首 先 , 我 们 考虑 load: 和 store, ZW PCIe — 


带宽 竞争 情况 。 图 9 显示 了 平均 带宽 的 降低 ，y 轴 
表示 归 一 化 后 的 相对 带宽 。 如 图 所 示 ，Joad: 和 y 90% 
store; 的 有 效 带宽 分 别 达到 DP-1GPU 的 8996981 $ 40% 
5696. HF PCIe 传输 得 更 加 频繁 并 且 需 要 传输 的 
数据 规模 更 大 (和 矩阵 C 的 大 小 大 于 和 矩阵 A 与 吾 的 
大 小 之 和 )， 故 store: 的 带宽 下 降幅 度 更 大 。 正 oyta TE 

如 3.3 节 提 到 的 , 为 充分 利用 流水 线 , multi 核心 和 矩阵 规模 0 
程序 将 子 矩阵 进一步 划分 为 更 小 的 子 块 。 每 个 
Storel 操 作 一 个 更 小 的 矩阵 子 块 。muzti 运行 时 ， 
几 个 store; 同时 执行 《根据 核 心 程序 计算 的 子 块 
大 小 , 我 们 的 实验 中 是 4 个 store, 5 1^ mult; H 


ERE 


2096 


图 9. DGEMM 在 一 个 GPU 卡 和 两 个 
GPU 卡 上 PCIe 相对 带宽 百分比 


Y ETT) multi 执行 时 间 内 ，PCIe 带宽 可 认为 10096 Load; Storez 

=> 被 store, 占用 ， 这 样 即 使 在 一 个 GPU 芯片 运行 Sa 
的 DGEMM, store, X} PCIe 带宽 占用 率 已 经 很 
高 。 因 此 ， 当 扩展 到 两 个 GPU 芯片 时 ，PCIe BM g G0% 
的 竞争 变 得 更 加 激烈 。 然 而 ，1oad， 过 程 中 PCIe  3* 49, 

c 有 效 带宽 的 下 降 并 没有 像 store, 这 样 严 重 。 这 是 

O 因为 oa 与 mult 核心 程序 是 工作 单元 间 的 流 — 709 

Na 水 ， 而 非 storei 与 muUIti 的 工作 单元 内 部 流水 ， ous H E 
因此 对 PCIe 的 请 求 不 如 storei 频 繁 , 男 外 ,lo0ad， EEIE (O 
传输 的 矩阵 规模 为 (m+n) xk ， 而 store; 传输 
的 和 矩阵 规模 为 mxn. HT k 比 n 小 很 多 ， 因 此 前 图 10.DGEMM 系统 内 存在 一 个 和 两 个 


GPU 卡 上 的 利用 率 相 对 百分比 


者 对 PCIe 总 线 的 压力 较 小 。 


其 次 , 由 于 传输 数据 也 发 生 在 应 用 空间 和 CAL 的 远程 存储 上 , 因此 除了 PCIe 带宽 竞 
E 两 个 GPU 芯片 上 还 存在 内 存 总 线 竞争 。 图 10 表示 load 和 store, 的 有 效 内 存 带 宽 分 别 下 
C BET 896511496. 5j PCIe 带宽 下 降 的 原因 类 似 ，stores: 的 带宽 下 降 更 明显 。 


通过 对 流水 线 执行 过 程 的 分 析 ， 我 们 发 现在 DP-1GPU F, loadı, load: store 
Store: 基 本 被 mult: EAE. Am. E 8 显示 有 效 带宽 的 降低 仍然 导致 了 DP-2GPU 的 
效率 降低 11%。 这 说 明 共 享 资源 的 竞争 (PCIe 带宽 和 内 存 带 宽 ) 阻止 了 部 分 数据 传输 过 程 
与 multi 核 心 程序 重合 。 随 着 GPU 数目 增加 ， 带 宽 的 请 求 会 更 加 频繁 ， 加 剧 带宽 竞争 对 整 
体 性 能 的 影响 。 综 上 ， 当 DGEMM 从 1 个 GPU 芯片 扩展 到 2 个 GPU 芯片 时 ，PCIe 和 系统 
内 存 的 带宽 都 下 降 。 基 于 这 些 实验 结果 ， 我 们 得 到 以 下 两 个 结论 : 


e 结论 1: 由 于 PCIe 带宽 的 限制 ，DGEMM 在 同一 主板 上 多 个 GPU 卡 的 扩展 性 受 限 。 
DGEMM 中 load, 和 store, 都 使 用 PCIe 带宽 ， 如 图 7 所 示 ， 这 两 个 操作 占 DGEMM 
总 数据 传输 时 间 的 60%。 图 8 的 实验 结果 给 出 了 竞争 导致 的 两 个 GPU 芯片 上 DGEMM 
(DP-2GPU) 的 效率 降低 。 随 着 GPU 数目 的 增多 ，PCIe 55465458, DGEMM 的 效率 受 

到 的 影响 增 大 。 


e 结论 2: 改善 系统 内 存 带宽 ，GPU-only DGEMM (DP-1GPU 和 DP-2GPU ) 的 性 能 会 
有 所 提升 。 虽 然 loadi 和 store; Ah HE P Es d. (HAS 10 得 出 ， 它 们 对 内 存 带 宽 
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的 竞争 敏感 度 较 低 。 如 图 7 所 示 , 这 两 部 分 的 执行 时 间 并 不 是 数据 传输 时 间 的 主要 部 分 。 
虽然 在 某 些 情况 下 ,固定 内 存 的 使 用 可 避免 load 和 store; 的 竞争 。 但 使 用 固定 内 存 
的 前 提 是 数据 不 会 被 重新 分 配 , 且 数 据 规模 小 于 固定 内 存 的 限制 。 我 们 的 工作 证 明了 这 
部 分 的 传输 开销 同样 可 以 通过 算法 优化 来 降低 。 


4.3.3 混合 CPUs 和 GPUs 的 扩展 性 


我 们 的 混合 实验 平台 上 ，Intel Xeon CPU 提供 了 128GFLOP/s 的 计算 能 力 ， 占 系统 双 精 
度 浮 点 性 能 的 12%。 对 计算 密集 型 程序 (如 DGEMMD 作 性 能 优化 时 ，CPU 的 计算 能 力 不 
容 忽 视 。 在 混合 版 DGEMM 的 HB-2GPU 实现 中 ， 和 矩阵 首先 被 划分 为 均等 的 两 部 分 ， 每 部 
分 都 分 别 由 一 对 CPU/GPU 计算 。 每 对 CPU/GPU 中 ， 我 们 采用 引文 [21] 中 描述 的 划分 算法 
在 CPU 和 GPU 之 间 划 分 任务 。 虽 然 HB-2GPU 相对 DP-2GPU 性 能 提升 了 696, 效率 却 下 降 
了 5%， 本 节 分 析 效 率 下 降 的 原因 。 


图 8 给 出 了 DGEMM 在 混合 CPUs/GPUs 系统 上 DGEMM 的 效率 。 我 们 在 图 11 中 分 析 
CPU 部 分 〈 记 为 CPU-HB) 对 HB-2GPU 的 性 能 贡献 。 单 纯 CPU 版 的 DGEMM 程序 〈 记 为 
Pure-CPU) 作为 对 比 程序 ，Pure-CPU 计算 的 矩阵 规模 与 CPU-HB 相同 。 该 图 显示 混合 
DGEMM CPU 部 分 性 能 比 Pure-CPU 降低 22%。 这 是 由 于 混合 版 DGEMM 中 GPU 计算 的 
DGEMM 也 需要 从 应 用 空间 到 CAL 远程 存储 拷贝 数据 ， 从 而 对 DGEMM CPU 部 分 的 计算 
造成 干扰 ， 导 致 CPU 内 存 竞争 更 为 激烈 。 我 们 从 中 得 出 结论 : 


e 结论 3: 改善 系统 内 存 带宽 有 利于 降低 内 存 竟 争 ， 从 而 提高 混合 版 DGEMM 在 
CPUs/GPUs 异 构 系 统 的 性 能 . 随 着 CPU 计算 能 力 的 增强 , 系统 内 存 竞争 对 混合 DGEMM 
的 整体 性 能 影响 会 增 大 。 固 定 内 存 的 使 用 将 有 利于 降低 内 存 竞争 。 


E B 
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图 11. 混 合 版 DGEMM 中 CPU 部 分 与 图 12.CPU 和 GPU 任务 负载 
纯 CPU 版 DGEMM 性 能 对 比 不 平衡 对 DGEMM 的 影响 


另 一 个 效率 降低 的 原因 是 CPU 与 GPU 之 间 负 载 的 不 均衡 。 我 们 采用 启发 式 的 划分 策略 ， 
使 得 CPU 与 GPU 的 执行 时 间 差 距 在 一 定 阔 值 内 。 根 据 多 次 实验 总 结 ， 本 文 的 阔 值 取 为 0.1 
秒 。 图 12 miti CPU 与 GPU 执行 时 间 的 相对 差异 ， 纵 坐标 为 〈《CGPU 计算 时 间 -CPU 计算 时 
|» /CPU 计算 时 间 )， 这 细微 的 不 均衡 性 导致 了 混合 版 DGEMM 整体 性 能 的 少许 降低 约 
196). 


5 ”其 他 相关 工作 


先前 有 一 些 工 作对 和 矩阵 规模 小 于 显存 的 DGEMM 进行 了 GPU 优化 。 中 


lim 


直人 基于 
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HD5870 提出 了 新 的 DGEMM 核心 程序 (1, 核心 程序 性 能 达到 了 GPU 峰值 性 能 的 8796. 我 
们 优化 的 DGEMM 核心 程序 性 能 在 HD5970 的 一 个 Cypress 芯片 上 达到 了 94%。 张 (音译 ， 
Chris Jang) 提出 的 GATLAS 自动 调 优 器 2 利用 自动 调 优 方法 加 强 不 同 GPU 结构 上 的 可 移 
植 性 ， 并 打算 在 真实 应 用 中 调用 。GATLAS 同样 只 关注 了 和 矩阵 可 以 存 入 GPU 显存 的 情况 ， 

因此 现在 还 没有 直接 的 方式 在 真实 应 用 中 调用 GATLAS « 沃 尔 科 夫 (V. Volkov) 和 德 梅 尔 CJ. 
Demmel) 在 混合 CPU/GPU 系统 上 实现 了 单 边 的 矩阵 分 解 CLU, QR 等 ) 4， 他 们 将 分 解 过 
程 分 配 到 CPU 和 GPU 上 使 其 同时 执行 。 但 其 中 的 和 矩阵 乘法 仍然 只 针对 和 矩阵 能 存放 在 GPU 
显存 的 情况 ， 不 存在 CPU 与 GPU 间 的 数据 传输 。 此 外 还 有 很 多 工作 针对 GPU 上 特定 程序 
的 性 能 优化 ， 均 未 考虑 数据 传输 过 程 ， 这 里 不 一 一 列举 。 


还 有 一 些 工作 虽然 考虑 了 数据 传输 开销 , 但 他 们 大 多 集中 于 实现 CPU 和 GPU 的 计算 过 
程 并 行 ， 并 未 设法 降低 数据 传输 的 开销 。 文 卡 塔 苏 布 拉 玛 尼 安 〈S. Venkatasubramanian) 和 
É FERE CR. Vuduc) 在 混合 CPU/GPU 架构 上 实现 了 雅克 比 算法 器 。 他 们 考虑 了 CPU 与 GPU 
之 间 的 数据 传输 , 混合 程序 的 性 能 提升 仅 896. 任 达 奇 (音译 ， DaQi Ren) 和 须 田 玲 齿 CReiji 
Suda) 在 多 核 CPU/GPU 系统 上 实现 了 大 规模 矩阵 乘法 *1。 他 们 的 关注 点 是 能 耗 问题 ， 利 用 
CPU 的 多 线程 来 进行 优化 。 当 一 个 线程 等 待 GPU 访 存 结束 的 信号 时 ，CPU 开启 一 个 新 线程 
执行 其 他 的 任务 。 这 种 方法 使 得 GPU 可 以 和 CPU 同时 进行 计算 ， 而 数据 传输 仍然 会 造成 整 
个 执行 过 程 停滞 ， 从 而 浪费 CPU 和 GPU 的 计算 能 力 。 费 彻 廷 格 〈C. Feichtinger) 等 人 在 混 
£t CPU/GPU 集群 上 实现 了 并 行 的 格子 波 尔 兹 曼 (Lattice Boltzmann) 方法。 他 们 通过 只 
传输 偏 微分 方程 的 边界 值 使 传输 数据 量 最 小 化 。 他 们 认为 负载 不 均衡 是 导致 性 能 提升 效果 不 
明显 的 原因 之 一 。 阿 加 塔 CY. Ogata ) 等 人 提出 了 基于 模型 的 CPU/GPU 系统 上 的 异 构 快 
速 傅 里 叶 变 换 库 中 1。 这 一 模型 更 好 地 指导 CPU 与 GPU 之 间 计 算 任 务 的 划分 。 我 们 在 异 构 
系统 上 优化 DGEMM 时 采用 引文 [21] 中 的 自 适应 划分 算法 解决 了 这 个 问题 ,我 们 的 工作 关注 
大 规模 DGEMM 在 异 构 CPU/GPU 体系 结构 上 的 实现 , 其 中 包含 CPU 与 GPU 之 间 的 数据 传 
输 。 我 们 不 仅 将 数据 传输 计 入 总 时 间 ， 而且 用 流水 线 算法 对 其 进行 优化 ,使 得 这 部 分 开销 可 
以 与 计算 重 登 。 因 此 ， 混 合 版 DGEMM 可 以 在 实际 应 用 中 调用 。 通 过 我 们 的 优化 ， 混 合 版 
DGEMM 性 能 达到 844GFLOP/s， 对 应 效率 80%。 杨 灿 群 等 人 提出 了 用 DGEMM 计算 过 程 
掩盖 数据 传输 的 开销 踢 ， 采 用 的 优化 方法 有 数据 载 入 流水 和 数据 输出 流水 。 我 们 还 发 展 了 
数据 存储 优化 策略 改进 DGEMM 核心 程序 的 性 能 并 建立 了 更 细 的 流水 线 。 这 新 增 的 优化 策 
略 使 DGEMM 性 能 提升 了 74%， 成 为 最 重要 的 优化 手段 。 另 外 ， 我 们 分 析 了 共享 资源 〈 特 
别 是 PCIe 总 线 和 系统 内 存 ) 的 竞争 和 优化 的 DGEMM 在 多 个 CPU 和 多 个 GPU 上 的 可 扩展 
性 。 通 过 分 析 ， 我 们 给 出 了 一 些 对 DGEMM 扩展 到 异 构 CPUs/GPUs 体系 结构 的 建议 。 


6 ”结论 


我 们 通过 三 种 策略 〈 双 缓存 优化 ， 数 据 重 用 优化 和 数据 存储 优化 ) 优化 了 大 规模 
DGEMM,， 得 到 了 一 个 新 的 流水 线 算 法 。 在 流水 线 中 ,我们 将 DGEMM 核心 程序 在 GPU 上 
的 执行 与 数据 传输 过 程 重 阁 。 优 化 的 DGEMM 在 一 个 ATI HD5970 Cypress 芯片 上 的 性 能 达 
到 408GFLOP/s， 效 率 为 88%。 在 ATI HD5970 上 性 能 为 758GFLOP/s， 效 率 为 82%。 在 异 
构 CPU/ATI GPU 系统 上 ， 混 合 版 DGEMM 性 能 达到 峰值 性 能 的 80% -- 844GFLOP/s。 与 核 
心 程序 的 性 能 对 比 可 以 看 出 ， 优 化 的 DGEMM 在 一 个 GPU 芯片 上 的 效率 接近 峰值 ， 进 一 步 
优化 空间 不 大 。 然 而 ， 当 DGEMM 扩展 到 多 个 GPU 和 多 个 CPU 时 ，DGEMM 的 效率 受到 
影响 ， 主 要 影响 因素 是 共享 资源 的 竞争 ， 特 别 是 PCIe 和 系统 内 存 竞 争 。 通 过 实验 和 分 析 ， 
我 们 得 出 三 个 结论 : COD. 由 于 PCIe 带宽 的 限制 ，DGEMM 在 同一 主板 上 多 个 GPU 卡 的 扩 
展 性 受 限 ; 2). 改善 系统 内 存 带宽 ，GPU-only DGEMM (DP-1GPU 和 DP-2GPU) 的 性 能 
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会 有 所 提升 ，(3). 改善 系统 内 存 带 宽 有 利于 降低 系统 内 存 竞争 ， 从 而 提高 混合 版 DGEMM 
在 CPUS/GPUs 异 构 系统 的 性 能 。 
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